AI资讯新闻榜单内容搜索-One-shot E

10步优化超越强化学习，仅需1条未标注数据！后训练强势破局

无监督的熵最小化（EM）方法仅需一条未标注数据和约10步优化，就能显著提升大模型在推理任务上的表现，甚至超越依赖大量数据和复杂奖励机制的强化学习（RL）。EM通过优化模型的预测分布，增强其对正确答案的置信度，为大模型后训练提供了一种更高效简洁的新思路。

来自主题: AI技术研报

6826 点击 2025-06-05 11:43